เกินจุดหยุดการรู้จำ: ทำไมโมเดลภาษาขนาดใหญ่ถึงต้องการข้อมูลภายนอก

เกินจุดหยุดการรู้จำ

โมเดลภาษาขนาดใหญ่มีศักยภาพสูง แต่กลับมีข้อจำกัดพื้นฐานประการหนึ่ง นั่นคือ จุดหยุดการรู้จำเพื่อสร้างระบบปัญญาประดิษฐ์ที่เชื่อถือได้ เราต้องเติมช่องว่างระหว่างข้อมูลการฝึกที่เป็นแบบคงที่ กับข้อมูลจริงในโลกแห่งความเป็นจริงที่เปลี่ยนแปลงตลอดเวลา

1. ปัญหาจุดหยุดการรู้จำ (อะไร)

โมเดลภาษาขนาดใหญ่ถูกฝึกโดยใช้ชุดข้อมูลขนาดใหญ่ แต่เป็นข้อมูลที่ไม่เปลี่ยนแปลง และมีวันสิ้นสุดที่แน่นอน (เช่น ข้อจำกัดก่อนเดือนกันยายน 2021 ของ GPT-4) ดังนั้น โมเดลเหล่านี้จึงไม่สามารถตอบคำถามเกี่ยวกับเหตุการณ์ล่าสุด การอัปเดตซอฟต์แวร์ หรือข้อมูลส่วนตัวที่สร้างขึ้นหลังจากช่วงเวลาการฝึกอบรมได้

2. การหลอกลวงเทียบกับความจริง (ทำไม)

เมื่อถูกถามเกี่ยวกับข้อมูลที่ไม่รู้จักหรือข้อมูลที่อยู่หลังจุดหยุดการรู้จำ โมเดลจะมัก หลอกลวง—สร้างข้อเท็จจริงที่ฟังดูสมเหตุสมผล แต่เป็นเรื่องที่ผิดทั้งหมด เพื่อให้ตอบโจทย์คำขอ ทางออกคือ การยึดมั่นการให้บริบทที่ตรวจสอบได้และเป็นปัจจุบันจากแหล่งข้อมูลภายนอก พร้อมก่อนที่โมเดลจะสร้างคำตอบ

3. RAG เทียบกับการปรับแต่งแบบเฉพาะเจาะจง (อย่างไร)

การปรับแต่งแบบเฉพาะเจาะจง: การอัปเดตค่าภายในของโมเดลนั้นใช้ทรัพยากรคอมพิวเตอร์มาก ช้า และทำให้ความรู้กลายเป็นแบบคงที่ ซึ่งจะเสื่อมค่าไปอย่างรวดเร็วอีกครั้ง
RAG (การสร้างข้อความเสริมจากการดึงข้อมูล): ประหยัดต้นทุนสูง ดึงข้อมูลที่เกี่ยวข้องได้ทันที และแทรกเข้าไปในคำขอ ทำให้มั่นใจได้ว่าข้อมูลทันสมัย และสามารถอัปเดตฐานข้อมูลได้ง่ายโดยไม่ต้องฝึกใหม่

ช่องว่างข้อมูลส่วนตัว

โมเดลภาษาขนาดใหญ่ไม่มีสิทธิ์เข้าถึงคู่มือบริษัท ส่วนรายงานทางการเงิน หรือเอกสารลับ ยกเว้นเมื่อถูกนำเข้าระบบผ่านกระบวนการดึงข้อมูลอย่างชัดเจน

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

Why is Retrieval Augmented Generation (RAG) preferred over fine-tuning for updating an LLM's knowledge of daily news?

Fine-tuning prevents hallucinations entirely.

RAG is more cost-effective and provides up-to-date, verifiable context.

RAG permanently alters the model's internal weights.

Fine-tuning is faster to execute on a daily basis.

Question 2

What term describes an LLM's tendency to invent facts when it lacks information?

Grounding

Embedding

Hallucination

Tokenization

Challenge: Building a Support Bot

Apply RAG concepts to a real-world scenario.

You are building a support bot for a new product released today. The LLM you are using was trained two years ago.

Task 1

Identify the first step in the RAG pipeline to get the product manual into the system so the LLM can search it.

Solution:
Preprocessing (Cleaning and chunking the manual text into smaller, searchable segments before embedding).

Task 2

Define a "System Message" that forces the LLM to only use the provided documents and prevents hallucination.

Solution:
"Answer only using the provided context. If the answer is not in the context, state that you do not know."